Imposing Label-Relational Inductive Bias for Extremely Fine-Grained Entity Typing

2019-08-20

Entity Typing

本文提出了融入标签依赖的归纳偏差解决细粒度实体分类任务，通过GCN来引入实体类别共现矩阵和词级别相似度，并且引入了mention-context matching模块，在Ultra-Fine数据集上取得了很好的效果。NAACL2019

Introduction

本文要解决的是细粒度实体分类任务，如下图所示，一个mention span对应多个标签，这多个标签之间存在一ing的关联，例如 criminal 一定也是 person，而不能与 police officer共存。因此，考虑类别之间的依赖信息非常重要。之前的方法大部分通过给定的类别层次结构来设计层次损失函数或者编码类别信息，但这些方法需要类似KB的监督信息去构建树状结构，而本文所针对的是开放领域的场景，类别种类更多并且没有KB schema。

Methodology

本文提出的模型的整体结构图：

Representation Model

模型使用Bi-LSTM编码上下文，输入为glove词向量和位置编码（分为mention span前，中，后三种），得到$\mathcal{C}_{h} \in \mathbb{R}^{l_{c} \times h_{c}}$，$l_{c}$为输入文本的长度。然后使用自注意力模块获取context representation $\mathcal{C}$。而对于entity span，模型使用char-CNN和自注意力模块获取mention span的表征$M$。

Mention-Context Interaction

之前的数据集只考虑命名实体，简单的拼接$[\mathcal{C};M]$再结合一个线性输出层通常可以取得不错的效果。这表明M本身包含识别实体的重要信息。然而在本文使用的数据集中，大部分的实体是代词，例如 “he” “it”，这种实体只能提供有限的类别信息，而不能提供细粒度的实体类别信息（例如”he”是一个”person”）。在这种情况下，mention span 和 context 之间需要更强的交互，作者使用了类似自然语言推理中的matching module。

设定$M \in R^{h_{m}}$，$\mathcal{C}_{h} \in R^{l_{c}\times h_{c}}$，首先通过一个线性层和tanh激活函数变维：
$$
m_{p r o j}=\tanh \left(W_{1}^{T} \mathcal{M}\right)
$$
然后使用mention feature对context做注意力计算：
$$
\mathcal{A}=m_{p r o j} \times W_{a} \times \mathcal{C}_{h}
$$

$\rho(\cdot)$ 是gaussian error linear unit Bridging nonlinearities and stochastic regularizers with gaussian error linear units，$\sigma(\cdot)$ 是sigmoid()函数。

Imposing Label-Relational Inductive Bias

对于忽略标签间关系的方法，entity typing被视为N个独立的二分类任务，N为类别数。假设任意的神经网络模型提取的特征为 $f\in R^{d_{f}}$，预测的概率计算为：
$$
p=\sigma\left(W_{o} f\right), W_{o} \in \mathbb{R}^{N \times d_{f}}
$$
可以把 $W_{o}$ 的每一行看作类别向量，与特定类别密切相关，需要在这些向量之间融入标签间的相关信息。作者发现直接使用类似Glove的启发式方法在损失函数中添加正则化项没有明显的效果，因此，本文提出了一种基于标签共现的图传播层，来建模标签之间的相关性。

Label Graph Construction 作者考虑开放领域中的实体类别，使用图来表示标签之间的共现关系，其中节点为类别，如果两个类别出现在同一个mention span中，则这两个类别节点连接成一条边。

Correlation Encoding via Graph Convolution 基于类别的共现矩阵$A$，给定随机初始化的$W_{o}$，论文使用GCN来获取节点的表示：

$$
\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}
$$
作者在实验中发现，下式亦可取得类似的效果，且运算上更加高效：
$$
W_{o}^{\prime}=\tilde{D}^{-1} \tilde{A} W_{o} T
$$
将上式展开，从单个节点的角度看：
$$
W_{o}^{\prime}[i, :]=\frac{1}{\sum_{j} \tilde{A}_{i j}}\left(\sum_{j} \tilde{A}_{i j} W_{o}[j, :] T\right)
$$

Compared to original GCNs that often use multi-hop propagations (i.e., multiple graph layers connected by nonlinear functions) to capture higher-order neighbor structures. We only apply one-hop propagation and argue that high-order label dependency is not necessarily beneficial in our scenario and might introduce false bias. A simple illustration is shown in Figure 2. We can see that propagating 2-hop information introduces undesired inductive bias, since types that are more than 1-hop away (e.g., “Engineer” and “Politician”) usually do not have any dependencies.

Leveraging Label Word Embeddings

论文引入了类别的语义信息作为辅助判断类别依赖，直接使用类别文本的词向量求和得到$A_{word}$：

Experiments

Datasets

论文使用了两个数据集：Ultra-Fine和OntoNotes（前者的类别标签比较多，有10331类实体）

Conclusion

本文提出了融入标签依赖的归纳偏差解决细粒度实体分类任务，通过GCN来引入实体类别共现矩阵和词级别相似度，并且引入了mention-context matching模块，在Ultra-Fine数据集上取得了很好的效果。

Helic He

NLP